Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
亮点
摘要
前言
药物开发是一个复杂的过程,目前平均需要12年的开发时间,需要26亿美元的投入。并且监管要求严格,需要证明药物的有效性和安全性。在临床研究中的评估费用昂贵且失败率高,估计只有6.2%的发现阶段的药物最终能够提供给病人。在这种情况下,基于人工智能的预测模型正在成为一种革命性的解决方案,以提高药物设计和开发的效率和速度,特别是通过优化治疗靶点和候选药物的选择。人工智能允许整合大量的多种模式数据,包括结构化和非结构化数据,来建立问题的概率和动态模型。
人工智能驱动的预测模型可以通过使用特定的数据集来生成,为整个药物发现、开发和注册步骤中的一系列决策提供信息(图1)。这些步骤包括选择正确的治疗靶点、最佳候选药物、适当的剂量和给药方案,以及将适当的患者纳入临床研究。通过提供一种手段来获取与诊断、患者特征、候选药物性质和治疗反应预测有关的数据价值,人工智能实现了一种更加个性化的方法,被称为 "精准医疗",即提出更适合个别患者特点的治疗。
图1.药物发现、开发和注册阶段需要做出的关键决定以及预测模型,和支持这些模型的数据集的例子。
捕捉生物医学大数据的价值
新一代DNA、RNA和外显子组测序、多组学分子分析、高分辨率医学成像和电子捕获技术最近的快速发展,使我们有可能在一个前所未有的水平上,描述个人在生理学、病理生理学以及环境风险暴露方面的特性。癌症基因组图谱(TCGA)、阿尔茨海默病神经影像计划(ADNI)、骨关节炎计划(OAI)和英国生物银行(UK Biobank)都是这种日益增长的趋势的例子,即整合来自大型患者群体的大数据以支持药物开发。在不久的将来,这种全面的分子信息将适用于多种疾病的数以百万计的患者,另外还有数百个结构化生物医学数据库中汇编的指数级数据和知识可用,如欧洲生物信息研究所(EBI)或美国国家生物技术信息中心(NCBI)管理的数据库。
当试图捕捉这些不断增加的数据的价值时,主要的挑战有:如何选择标准化、机器可读的数据,并适当的访问;数据的复杂性、异质性和稀疏性。在数据生命周期管理中,整合由多种技术产生的海量和多模式数据,并保证一致性和可靠性,仍然是一个重大的困难(图2)。获得准确的、经过整理的大量数据也是提高ML重复性的关键。
解决这些问题需要建立适应生命科学特性的计算硬件架构,这些架构通常被部署到云端。为此,出现了许多倡议,如临床数据交换标准联盟(CDISC)或FAIR指导原则,以实现数据的可查找性、可访问性、互操作性、可重用性和交换。此外,欧洲通用数据保护条例(GDPR)和美国经济和临床健康信息技术法案在访问、存储、共享机密和敏感健康数据方面的监管要求,要求实施明确和可操作的数据治理战略(图2)。
图2. 生物医学数据的生命周期管理。该图表示从数据产生到结果共享的一般生物医学数据生命周期,强调在数据治理方面需要更多的标准化和自动化。
人工智能和疾病建模
生物技术和人工智能的融合为创建疾病模型提供了机会,以帮助在定义明确的患者亚群中确定治疗方法。这类模型是在使用多组学技术对患者与健康对照组进行广泛的分子分析后产生的,将疾病表示为基于潜在病理生理机制定义的内型(endotypes)。这些数据通常是在公私合营的大型患者群随访期间产生的,通过使用无监督和有监督的学习方法的组合对患者进行分层。
这种分类的基本原理是,它能更好地支持精准医疗的方法,依靠针对明确的患者亚群的疗法,取代以前仅基于临床表型(phenotypes)的分类。为此,从数千名特定疾病患者的血液和/或目标器官中获得的分子分析数据,与疾病进展、严重程度或治疗反应方面的详细临床信息相结合,可将患者分为反映疾病异质性的同质亚群。虽然传统的生物信息学不可能整合这种大规模和多模式的数据,但现在可以通过使用人工智能对疾病进行全面建模。
要做到这一点,主要的计算挑战仍然在于是否有能力:(i) 整合来自多组学技术的数据,同时减少其维度的多样性;(ii) 在单细胞水平上破译疾病机制;(iii) 对疾病的动态演变进行建模;以及(iv) 通过共识和再抽样方法巩固研究结果,支持其有效性和重复性。
在对每个集群进行基因集富集分析后,可以根据分子通路的失调进一步确定患者亚群的特征。特定的数据库(如Ingenuity Pathway Analysis和STRING)被用来在既定的功能分子通路中重新组合患者样本中上调或下调(与健康对照组相比)的基因或蛋白质。鉴于疾病的定义是参照常态下的分子术语,疾病的特征需要在与健康状态相关的分子多态性观察之外加以确定。
治疗靶点的识别、优先排序和验证
目前研究人员正在开发计算方法,以确定与疾病相关的基因,或预测参与疾病因果关系的蛋白质,从而寻找潜在的可操作的治疗靶点。第一步,是在相互连接的基因或蛋白质的大规模网络中,体现特定疾病中失调的分子途径。这些网络是由蛋白质-蛋白质相互作用(PPI)建立的,或通过推理技术重建的,如相关或贝叶斯网络。这种表示方法可以划定与疾病相关的子网络模块,作为进一步计算分析其内在拓扑结构的基础,以确定被预测为 "因果"的节点(包括,例如,主调节器、枢纽和驱动突变)。特别是,网络传播算法通常用于放大那些很少或没有疾病相关直接证据的节点的信号。如上所述,主要的计算挑战涉及从不同层次获得的多层网络的整合,以及大规模动态信息的表示。
除了生物相关性外,还应考虑其他方面,以确定考量疾病靶点的优先次序,如" Open Targets initiative"倡议的那样。(i) 可药性(即能够用小型合成药物或生物药物或任何其他治疗方式来调节靶点的功能的可能性);(ii) 干扰该靶点时的潜在安全影响;(iii) 利用自然语言处理(NLP)技术从专利和文献中挖掘记录的创新性;以及(iv) 药物开发的可行性。确认靶点的可药性大大受益于三维结构建模的进展,包括最近DeepMind的AlphaFold算法,就是基于主要氨基酸序列,改进蛋白质结构预测。
人工智能增强的药物设计、选择和优化
基于网络的接近性分析可以预测药物与靶点的相互作用,这可以应用于现有药物在新适应症中的再利用。例如,deepDTnet算法是基于网络的深度学习方法,用于识别已知药物的新分子靶点。DeepDTnet嵌入了15种化学、基因组、表型和细胞网络,以产生生物学和药理学上的相关特征。研究人员在将人工智能应用于虚拟药物设计或识别具有理想特性的新化合物方面,也有相当大的兴趣。
计算化学已被广泛用于定量结构-活性关系(QSAR),目的是预测可能包括数百万分子的化学空间中的活性。QSAR领域在过去十年中受益于深度学习对神经网络的综合应用,有了更高的计算能力和更好的算法来解决过拟合和梯度问题。ML方法现在被应用于训练基于配体的虚拟筛选的神经网络,以识别和优化与候选治疗目标相互作用的药物,预测其吸收、分布、代谢、排泄和毒性(ADMET)特征,或重新利用现有分子。
有趣的是,深度学习可以通过开发包含一个以上活动的模型来进行多任务预测,如生物活性和ADME特性。而多个活动的预测可以并行训练,因为它们共享相同的输入和隐藏层,每个活动都与一个特定的输出节点有关(图3a)。在Kaggle竞赛中,评估各种ML方法以提高QSAR方法的预测性能,一个多任务深度网络赢得了比赛,比基线提高了15%。除了提高预测的准确性,与经典的ML方法(如Random Forrest或Support Vector Machine)相比,基于深度学习的多任务预测进一步提高了药物发现能力。
深度学习也允许识别新的分子描述符,而不是仅仅依靠现成的和专家得出的化学特征。以前的ML方法使用专家编制的分子描述符来训练算法,而深度学习则使用这种无需任何人工干预的图像处理形式,即图卷积产生特征。为了更好地预测分子活性,多任务深度学习也可以应用于涉及分子本身的高通量筛选(HCS)试验期间产生的图像分析数据。这样的HCS是一个丰富的信息来源,它可以与分子描述符结合使用来预测生物活性,同时避免了对定制试验的需要。
图3. 用于分子建模和药物设计的深度学习网络的例子。(a) 多任务预测深度学习算法的示意图,左边是用于训练的化合物及其相关数据。一旦网络被训练并找到最佳的超参数,该算法就会产生它所训练的所有端点的全矩阵预测作为输出。(b) 自动编码器的示意图,左边是编码器,中间是潜在空间,右边是解码器。一旦自动编码器在数以百万计的分子上进行了训练,潜伏空间就可以被修改(通过随机或焦点变化)以产生接近输入的分子,尽管变化很小。自动编码器将一个SMILES作为输入,并产生一个SMILES作为输出。
深度学习也被应用于新分子的生成,分子是由模型设计的,而不是由化学家设计。以前人工方法是通过添加化学R基或改变原子来进化现有的分子,而深度学习可以用来训练神经网络,并根据以前已知的分子生成新的候选分子。研究人员通过调整通常应用于图像分析或语言翻译的方法,利用包含编码器和解码器网络的变异自动编码器,建立了第一个深度学习的新分子生成模型(图3b)。编码器的作用是将以字符串(如SMILES)表示的化学结构翻译成一个潜伏空间向量。然后解码器网络从潜伏空间向量翻译回SMILES,以获得精炼的化学结构。一个随机的变化可以应用于潜伏空间或与模型预测相结合,以确定一个与输入稍有不同的符合模型标准的解码分子。自动编码器和衍生工具的多种应用已经被报道,无论是否与循环神经网络(RNN)的使用相结合。
走向虚拟临床研究
人工智能可用于支持评估候选药物疗效和安全性的临床试验的设计、实施和监测,以提高成功率。例如,对疾病和患者异质性的理解有助于选择试验中招募的患者。此外,NLP正被用来挖掘真实世界证据(RWE)数据或健康记录,以评估病人在临床研究中的资格。在这种方法中,自动文本挖掘被用来识别和选择精确满足研究设计中的纳入标准(如疾病严重程度,特定目标器官的参与,以及已有的疗法)的病人。人工智能还有助于通过整合大量的生物、医学影像和临床数据来记录患者的特异性,为精准医疗方法中的创新试验设计提供信息。在试验监测期间,人工智能有助于以远程方式捕捉由可穿戴传感器或设备产生的患者报告的测量和结果。它还被应用于挖掘此类数字生物标志物,提供有关症状、疼痛、认知功能、运动能力或睡眠模式的有用信息,以支持医生的诊断或治疗决定。人工智能和ML也被用来分析来自成功和失败的研究的数据,以产生能够同时预测多种和多模式临床参数演变的模型。这些分析可以提供关于预测病情发展、严重程度、对治疗的反应、甚至生存的候选生物标志物的假设。
一个让人们产生相当的大兴趣的话题,是通过虚拟试验预测候选药物的疗效。目前,病人特征的虚拟表现是以 "合成"病人的形式组合起来的。在组合安慰剂对照组以测试危及生命或罕见疾病的候选药物时,这些模型作为真实病人的替代品特别有用。这种虚拟安慰剂组的演变可以从受病情影响的真实病人在接受标准护理时获得的RWE临床数据中进行建模。
此外,为了测试实验性药物的临床疗效,基于定量系统药理学(QSP)的计算模型也在开发中,并取得了一些令人鼓舞的结果。有关疾病的QSP模型是根据血液或组织中与临床症状有关的生物过程的数据建立的。然后将获得的生物系统建模为常微分数学方程,以表示各组成部分之间的动态相互作用,并进一步纳入候选药物的一些主要特征(如对靶点的亲和力、药代动力学和生物分布),以评估后者将如何扰乱该系统。QSP不仅用于预测药物如何缓解与特定器官有关的症状,而且还用于确定潜在的生物标志物,以对病人进行分类或监测,选择剂量和给药方案以及临床终点,以用于确认性的真实世界试验。可以预见,在成功实施以ML为动力的精准医疗方面还有一个障碍,那就是难以建立因果推断,即从数据驱动的模型中预测药物暴露对临床结果的因果效应。然而,未来人工智能生成的各种疾病模型,以基因或蛋白质相互作用组的形式出现,对病理生理学的因果关系进行推断,可能会大大增加计算分析预测候选药物疗效和安全性的能力。
结束语
考虑到药物开发是为选择正确的靶点、药物、剂量方案和病人而做出的一系列重要决定,似乎很明显,人工智能可以通过捕捉海量和多模式数据的价值来支持这些决定中。因此,人工智能和ML无疑将在药物开发中产生一场前所未有的革命,使这一复杂而昂贵的过程最终变得更便宜、更有效,同时预期将缩短发现阶段,减少药物开发过程中的失败率。卫生行业目前正在快速整合这些新技术,这体现在致力于人工智能应用于药物开发的公司数量呈指数级增长。2020年,免疫肿瘤学领域的第一个人工智能设计的药物仅经过12个月的研究就进入了I期临床评估,而药物发现通常需要5-7年的时间。利用人工智能对现有分子的挖掘,也在创纪录的时间内发现了一种新的抗生素,命名为halicin。众多由网络计算产生的药物再利用机会也已被发现,应用于癌症、神经系统疾病和COVID-19。值得注意的是,虽然ML大多被应用于化学分子的设计,但这些方法也被考虑用于生物药物的设计和选择,包括合成寡核苷酸、单克隆抗体或具有目标药理特性的肽类。
药物设计和开发包含了一系列现有的人类专业知识,人类和机器智能之间的协同对于成功提高药物设计和开发至关重要。智能机器可以提供巨大的计算内存和功率,从大量的多模态数据中进行非监督性分析。而深度学习方法被同化为黑盒子,相比之下,人类擅长提取特征,并提供分类任务的基本原理的透明度,或从预测模型的输出中提供可解释性。在湿式实验室和真实世界的临床研究中,需要人类的专业知识来设计和执行验证实验。重要的是,在实施人工智能时,需要人类的智慧和判断力来考虑道德影响。由算法告知的诊断或治疗决定的最终责任在于医疗保健专业人士。
通过帮助提供对病人特征的前所未有的了解,人工智能正在为高度个性化的医学铺平道路,提供未来治疗和预防措施的视角,精确地根据每个病人的生理和疾病特异性的需求进行定制。人工智能和ML也支持医学的发展,通过访问包括疾病、病人和候选药物的多维模型,预测性越来越强,并通过让病人和健康人参与管理他们的健康而进一步提升。因此,我们可以预见,人工智能和ML会带来向综合计算型精准医疗的快速演变。
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
2021人工智能药物研发创新论坛|第四轮通知|日程更新
Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
Drug Discov Today|药物研发风险地图
Drug Discov Today|FDA童伟达:基于AI的语言模型为药物发现和开发提供动力
Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点
AI药物发现公司继续寻求最佳商业模式
人工智能在药物研发中的应用
远程机器人实验室在AI药物发现中的应用价值与前景
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动